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单 隐 层 神经 网 络 输入 权 值 的 一 种 新 算法 


刘 金 河 ， 田 大 钢 
(上 海 理工 大 学 管理 学 院 ， 上 海 200093) 


摘 要 : 针对 传统 极端 学 习 机 输入 权 值 与 隐 层 阅 值 随机 设 定 的 问题 ， 提 出 了 输出 值 反 向 分 配 算 法 。 算 法 在 传统 极端 学 
习 机 的 基础 上 ， 通 过 优化 方法 得 到 最 优 输出 值 分 配 系数 ， 并 利用 最 小 二 乘法 确定 网 络 输入 参数 。 将 本 文 算法 应 用 到 常 
用 数据 集 进行 实验 ， 并 与 其 他 极端 学 习 机 改进 算法 进行 比较 ， 显 示 本 文 算法 有 良好 的 学 习 以 及 泛 化 能 力 ， 能 够 得 到 简 
单 的 网 络 结构 ， 证 明了 算法 的 有 效 性 。 
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New algorithm for input weight of single hidden layer neural network 


Liu Jinpeng, Tian Dagang 
(Business School, University of Shanghai for Science & Technology, Shanghai 200093, China ) 


Abstract: This paper proposed a back distribution algorithm for output values, which was to solve the random setting problem 
about input weights and hidden layer thresholds on traditional extreme learning machine. On the basis of traditional extreme 
learning machine, the algorithm obtains the optimal output value distribution coefficient through the optimization method, and 
uses the least squares method to determine the network input parameters. Experiments on common data sets show that, the 
proposed algorithm not only achieves good learning and generalization ability compared with other improved extreme learning 
machine algorithms, but also can obtain a simple network structure and it is effective. 
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人 采用 混合 学 习 算法 来 克服 极端 学 习 机 的 缺陷 ， 利 用 改进 后 的 
粒子 群 极端 学 习 机 (Particle Swarm Optimization，PSO-ELM) 
极端 学 习 机 (extreme learning machine, ELM) 由 Huang 等 来 选择 输入 权 值 和 隐 层 阔 值 ， 有 较 好 的 网 络 泛 化 能 力 ， 但 模型 
人 2006 年 首次 提出 ， 是 一 种 新 型 的 单 隐 层 前 馈 神经 网 络 模型 ， 结构 复杂 外 。 综 合 来 看 ， 针 对 ELM 的 讨论 主要 集中 在 两 点 : 如 
其 运算 速度 是 传统 前 馈 神经 网 络 的 数 干 倍 ， 并 且 具 有 良好 的 泛 。 ” 何 确 定 输入 层 与 隐 层 之 间 的 连接 权 以 及 如 何 确 定 隐 层 节点 数 。 
化 能 力 趾 。ELM 的 核心 思想 是 随机 生成 网 络 的 输入 权 值 和 隐 层 本 文 主要 针对 ELM 随机 选取 输入 层 和 隐 含 层 之 间 的 连接 
闵 值 , 并 根据 最 小 二 乘法 确定 输出 权 值 ,但 由 于 其 隐 层 参数 ( 输 权 《〈 输 入 权 值 ) 及 隐 层 阔 值 的 问题 ， 提 出 一 种 新 的 单 隐 层 神经 
入 权 值 和 隐 层 阔 值 ) 的 随机 性 , 难以 保证 得 到 好 的 结果 2a。 为 网 络 权 值 确 定 算法 一 一 输出 值 反 向 分 配 算法 ， 利 用 优化 方法 确 
找到 最 优 网 络 参 数 ， Zhu 等 人 提出 了 进化 极端 学 习 定 输入 权 值 。 经 过 数值 实验 ， 得 出 输出 值 反 向 分 配 算法 可 以 解 
(evolutionary ELM，E-ELM)， 其 中 输入 权重 和 隐 层 阔 值 通过 决 输入 参数 随机 设 定 的 问题 ， 能 够 得 到 较 好 的 推广 能 力 。 
差分 方法 进行 优化 ， 输 出 权重 使 用 Moore-Penrose (M-P) 广义 
逆 计 算 ， 该 算法 学 习 速 度 快 ， 但 推广 能 力 较 差 外 。Huang 等 人 1 ”基本 理论 
提出 一 种 增 量 极端 学 习 机 (incremental ELM, I-ELM)， 有 效 的 。 1.1 单 隐 层 前 馈 神经 网 络 
提高 了 网 络 学 习 速 度 ， 但 测试 精度 稍 差 54。Rong 等 人 提出 剪 单 隐 层 前 馈 神 经 网 络 由 输入 层 ， 单 隐 含 
枝 极 端 学 习 机 (pruning ELM，P-ELM)， 该 方法 能 够 得 到 较 好  ” 相 邻 层 的 节点 由 连接 权重 进行 全 连接 ， 单 隐 
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的 测试 精度 以 及 简单 的 网 络 结构 ， 但 学 习 的 时 间 相 对 较 长 中 。 ” 够 表示 成 如 下 函数 : 
Emilio 等 人 提出 的 贝 叶 斯 极端 学 习 机 (Bayesian ELM, BELM )， f(X) = 21vip(27wijj +bi)+ vo = 
提高 了 网 络 推广 能 力 ， 但 随机 参数 问题 仍 有 待 改进 名 。Han 等 Pilivip(WT:X+bi)+vo (1) 
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…，Xn) I 表示 网 络 的 n 维 输入 向 量 ， 
wn) 表示 输入 层 与 隐 层 第 i 个 节点 的 
连接 权 ( 即 输入 权 值 ), 它 的 大 小 代表 着 各 节点 之 间 连 接 的 强 弱 ， 
bi 是 隐 层 第 i 个 节点 的 阐 值 ( 即 隐 层 阐 值 )，vi 表示 隐 层 第 i 个 
节点 到 输出 层 的 连接 权 ( 即 输出 权 值 ), p() 表 示 隐 层 活 化 函数 ， 
本 文 使 用 Sigmoid 函数 ，W'i* XX 表示 Wi; 和 X 的 内 积 ，KX) 为 网 络 
输出 。 输 出 神经 元 的 活化 函数 为 线性 函数 ， 所 以 网 络 的 输出 权 
向 量 V= (v1，y2，…，vL) 7 可 以 根据 最 小 二 乘法 求解 ， 极 端 学 
习 机 就 是 这 样 求解 的 。 但 于 和 4b 却 不 易 求 得 ， 文 献 [6][7][8] 都 
涉及 到 这 个 问题 , 本 文 将 给 出 
pb)。 
1.2 极端 学 习 机 算法 

设 有 任意 的 入 个 样本 (Xi, ,二 1, 2, …,，N, X= Gi, 
Xi2，……，Xmn) 7 为 网 络 的 n 维 输入 向 量 ， 玫 0O1，)>， 
7 为 个 样本 输出 。 则 样本 学 习 问 题 可 以 表达 为 : 

f (Xx) = Phivip(WE :Xx + bi) + vo ~ yk = 1,2,%,N 

(2) 

其 中 : 选取 合适 的 输出 权重 w、 输 入 权重 Ft 以 及 隐 层 阔 值 2 
使 得 样本 输出 yx 与 网 络 输出 之 间 的 误差 尽量 小 。 

因为 网 络 输出 函数 为 线性 函数 ， 所 以 式 2) 就 是 关于 于 
…，yL) TI 的 线性 方程 组 。 给 定 输入 权 值 和 隐 层 阔 值 
后 ， 输 出 权重 可 以 通过 求解 线性 方程 组 求 得 。 

上 述 方程 组 可 以 简写 为 


其 中 : 和 (x1，xX2，x3， 


We (wi, wi, Wi3, ***, 


“7, ypN) 


(@2 


HV=Y (3) 
五 记 为 


中 (WIE: XI +br) 1 
中 (WE: X>+b) 1 


9p (Wi:Xny+b1) 中 (WTI:Xy+b) 1 


Nx (L+1) 
五 是 式 (2) 的 系数 矩阵 ，= (v1，v2，*…，vVL) 了 是 输出 权 值 向 
量 ， 天 (yy1，y2，.…，yN) “是 样本 的 一 维 输出 。 容 易 知 道 ， 对 
几乎 所 有 的 WW，b， 五 为 列 满 秩 矩阵 。 
特别 地 ， 当 L=N-1， 即 隐 层 节点 数 等 于 样本 个 数 时 ， 只 要 
急 层 输出 矩阵 五 为 非 奇异 矩阵 ， 存 在 唯一 的 Y， 满 足 方程 组 
(3)， 因此, 含有 KL (ZL=N-1) 个 隐 层 节点 的 单 隐 层 前 馈 神经 网 
络 能 够 以 零 误 差 学 会 N 个 样本 B21, 也 就 是 网 络 输出 与 样本 输出 
完全 一 致 。 但 事实 上 样本 数 一 般 很 大 ， 若 隐 层 节点 数 等 于 样本 
数 ,除了 导致 计算 量 很 大 之 外 ,更 主要 地 是 会 出 现 过 所 
网 络 的 泛 化 能 力 降 低 口 。 
当 Z<NM-1， 即 隐 层 节点 小 于 样本 数 时 ， 线 性 方程 组 3) 未 
知 量 个 数 少 于 方程 个 数 , 可 以 利用 最 小 二 乘法 求解 输 
上 述 式 (3) 的 最 小 二 乘 解 为 
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V=HY= CHIH) -HIY 
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其 中 HH= CHIH) -1H? 为 HH 的 M-P 广义 逆 算 阵 。 
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极端 学 习 机 的 基本 步骤 如 下 : 

a) 随机 选择 隐 层 参数 〈 网 络 输入 权 值 球 和 隐 层 阔 值 5;); 
b) 根据 隐 层 参数 计算 隐 层 输出 矩阵 五; 

c) 根据 求解 得 到 输出 权 值 斑 

上 可 见 ， 极 端 学 习 机 的 一 个 主要 难点 就 是 解决 丁 ，2 的 


选择 问题 。 
2 ”基于 ELM 的 输出 值 反 向 分 配 算法 


取 vo = 0。 设 有 任意 的 入 个 样本 (%，B), 折 1，2,，…， 
N，XF 《xj1，xXjp2，…，Xin) 7 为 网 络 的 n 维 输 入 向 量 ， 天 (yi1， 
Jp，…，JN) 了 为 个 样本 输出 。 设 隐 层 节点 数 为 L， 隐 层 活化 
函数 为 Sigmoid 函数 ， 玫 Ci，mp，…，) 7 为 输出 权 值 ，W; 
表示 输入 向 量 与 隐 层 第 i 个 节点 的 连接 权 〔 即 输入 权 值 )，bi 是 
隐 层 第 i 个 节点 的 贱 值 ( 即 隐 层 阐 值 )。 

取 分 配 系数 向 量 g = (gj, qz … ,0p) ,0 三 wi 三 1 二， 
2，…，L， 令 隐 层 节点 i 的 输出 为 yq;， 即 

op(WE:X+bi) = ya (4) 


Ke 


则 
Wi:X+b;= 9 1(yai) (5) 

本 文选 取 的 活化 函数 为 Sigmoid 函数 ， 该 函数 值 域 在 (0， 

1)， 为 使 p-1(yai) 有 定义 ， 需 要 对 样 输 行 转换 ， 使 其 值 
在 (0，1) 之 间 。 
将 样本 代入 式 〈4)， 可 以 得 到 如 下 方程 组 : 


上 上 
Wa 
[= 


p(wi “Xi+ bi) = y10i 
p(wi “Xz 十 bi) = y2Qi 


pWE :XN + bi) = ynai 


再 根据 式 (5) 得 到 如 下 方程 组 : 


Wi Xi + bi = 9 io) 
Wi :Xz + bi= 91(y20i) (0) 


WT :XN + bi = -1(ywa) 
当 a 给 定时 ， 式 6) 是 关于 Wb 的 线性 方程 组 ， 所 以 可 
以 通过 最 小 二 乘法 确定 输入 权 值 防 和 隐 层 阔 值 六。 
为 表述 简洁 ， 记 上 述 方程 组 为 


这 里 环 是 x+1 维 向 量 ， i=]， 2， 四 L; XX 是 n+l 维 向 量 ， 


广 1，2，…，N。 则 
w= (0 We ~ we) 
w= (i pb; = (W: VW, Wi) 
二 /X1 Xz RN 
ZX- = Ky) 


其 中 : 家 是 x+1 行 工 列 矩阵 ， 和 是 n+l 行列 和 矩阵。 网 络 隐 层 
神经 元 输出 矩阵 玖 可 记 为 
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9 (WI Y) (WT .KY) 使 得 该 算法 有 选择 隐 层 节点 数 的 作用 。 
H=|e (WI:X) 9 WEY) = v(x) ere ， 但 计算 效果 比较 好 ,万 
其 对 分 类 问题 ， 其 中 的 原因 有 待 进一步 研究 。 


0p (WI:Xy) 1 |p (WI.Xyn) 


NxL 
小 估 SA 
系数 矩阵 中 ， 当 4= (qij) 时， 用 (4) 表 示 和 矩阵 人 
Ce(ai)) ns 3.1 实验 数据 
此 ， 方 程式 (6) 可 以 简写 为 本 文选 取 的 实验 数据 均 来 源 于 UCI 机 器 学 习 数 据 库 03, 该 
XIW; = p91(Yai) (7) ”数据 库 中 的 数据 均 为 实际 问题 的 真实 数据 ， 并 多 被 用 于 机 器 学 
其 中 : OiYa)= Co i(yiai), pi(y20i), 习 人 研究 。 本 文选 取 了 常用 的 Fis、Wine、Pima Indians Diabetes 
9-1CyNai)) 因此 (7) 式 中 的 最 小 二 乘 解 为 和 Wisconsin Breast Cancer 数据 集 、Heart、Balance Scale、 
W; = (Cr) 0-1(Ya) = (XXT) Xo-1(Yai) Haberman’s Survival 和 User Knowledge Modeling 数据 集 ， 其 中 
LE 2 (8) ”测试 样本 均 是 随机 选取 所 得 ， 如 表 1 所 示 。 
式 (8) 是 含有 输出 值 分 配 系 数 向 量 g 的 表达 式 。 确定 a, 使 表 1 数据 集 基 本 属性 
其 在 满足 约束 条 件 情况 下 ， 最 小 化 下 列 目 标 函数 : 数据 集 名 称 训练 样本 测试 样本 属性 ”分 类 
2 Iris 100 50 4 3 
min$ EE-1vip(X (XT) 9 (Yai)) 一 | Wine 118 60 13 3 
这 里 取 疡 范 数 。 Pima ID 538 230 8 2 
这 样 ， 求 解 输入 权 值 和 隐 层 阔 值 的 问题 ， 就 转换 为 求解 含 Wisconsin B.C 379 190 30 2 
有 输出 值 分 配 系 数 向 量 a 的 优化 问题 : Heart 180 90 13 2 
mint | vec (YT) -iCYa) 革 | es Balance Scale 425 200 4 3 
0<a;<1 Haberman’s S 204 102 3 2 
式 (9) 可 以 求 出 最 优 的 w。 确 定 w 以 后 ， 根 据 式 (8) 计 User KM 258 145 5 4 
算 永 ;， 再 根据 极端 学 习 机 算法 求 出 亚 3.2 ”实验 过 程 及 结果 
a) Iris 数据 集 。 该 算 例 将 样本 分 为 三 类 ， 分 别 对 应 1、2 
V=H+Y=(HTH)-1HTY (10) 


3。 输出 值 反 向 分 配 算法 中 活化 函数 为 Sigmoid 函数 ， 因 此 需要 
将 样本 数据 的 期 望 输出 调整 至 “0，1)， 根 据 下 式 进行 转换 : 


甘 


令 e(V， = 下 _ivip(XT(XT) ‘p10a)) 一 7|| ， 输 8 


yo (11) 
值 反 向 分 配 算法 的 基本 步骤 如 下 : maxO) -minOy) 
和 输入; XX、Y、L、&; ww 为 变换 后 的 期 望 输出 ，y 为 原本 样本 期 望 输出 。 
输出 : W、V; 应 用 本 文 输出 值 反 向 分 配 算法 进行 实验 ， 构 造 含有 三 个 隐 
a) 随机 选择 输出 权 值 2( vi0，w0，…，vi0); 层 节 点 的 单 隐 层 网 络 ， 即 式 (2) 中 L=3， 随 机 给 定 输出 权 值 ， 
b) 根据 式 (9) 求 出 最 优 输出 值 分 配 系 数 向 量 a = (gf， ”将 训练 样本 以 及 测试 样本 代入 算法 ， 根 据 上 面 所 述 的 学 习 算 法 


过 程 ， 求 得 最 终 网 络 输入 权 什 


0 [ed 0 
2， 》 L ¥ 
—0.0780 0.0824 0.0824 
计算 输 1 隐 层 阐 值 开 ,; _ | -0.0515 2.0980 2.0982 
c) 根据 式 (8) 计算 输入 权 值 和 隐 层 阔 值 WW; v -4 | 
d) 由 式 (10) 确定 新 的 输出 权 值 这 。 0.3117 10.2198 10.2203 
e) 若 e(Y，o) < e， 则 算法 终止 ， 否 则 返回 步骤 b)。 隐 层 阔 值 5=(-27. 4835 -12. 9238 -12. 9245)7,， 网 络 最 终 输 出 
容易 知道 ， 以 上 算法 显然 是 收敛 的 。 事实 上 , e(V%,， ao)> ” 权 值 大 (1.1625x101?2.2334x103 -2.2333x103) T。 
e(V1, a®)>e(Vi, al)>e(V?, a!)>:…>0. b) Wine 数据 集 。 该 算 例 将 样本 分 为 3 类 ， 实 验 前 ， 将 类 
本 文 提 出 的 输出 值 反 向 分 配 算法 由 于 了 是 由 最 小 二 乘 求 得 ，“ 别 进行 如 式 (11) 的 转换 ， 首 先 构造 一 个 含有 20 个 隐 层 节点 的 


保留 了 极端 学 习 机 的 优点 ， 同 时 W 是 通过 a 用 W,= 单 隐 层 网 络 ， 根 据 本 文 的 输出 值 反 向 分 配 算法 进行 学 习 ， 最 后 
(XT) 0-1(Ya) = (XXT) Xo-1(Y@) 算 得 ，a 由 优化 算法 求 得 ， 本 文 Qi 04 Qg9， Qi0; Q13; Qi14，Q15 Q16 Q17; Q18 均 为 零 , 删 
算法 可 望 能 够 获得 比 随机 选择 好 的 结果 。 同 时 ， 在 算法 的 计算 。 除 对 应 的 隐 层 节点 , 得 到 含有 10 个 隐 层 节点 的 单 隐 层 网 络 。 网 
结果 中 ， 如 果菜 一 个 gq; = 0， 则 相应 的 隐 层 节点 可 以 删除 ， 这  ” 络 输 入 权 值 为 
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—0.0094 一 0.0029 一 0.0028 一 0.0028 一 0.0016 一 0.0033 一 0.0033 一 0.0028 一 0.0028 一 0.0033 本 
8.4085 x 10- 5.6784 x 10-4 4.3521 x 10™4 4.9985 x 10-4 0.0045 0.0014 0.0014 4.3188 x 10-4 4.6795 x 10-4 0.0013 
一 0.0269 一 0.0078 一 0.0076 一 0.0076 一 0.0014 一 0.0085 一 0.0084 一 0.0076 一 0.0075 一 0.0085 
0.0031 0.0011 0.0010 0.0011 0.0022 0.0016 0.0016 0.0010 0.0011 0.0015 
1.4270 x 10-5 一 5.9930 x 10-6 ”一 3.6486 x 10-5 一 4.8417 x 10-5 —8.3720x10-5 一 2.0872 x 10-5 一 2.2064x10-5 —3.5667 x 10-5 —4.2894x10-5 一 1.8322 x 10-5 
0.0156 0.0067 0.0060 0.0063 0.0185 0.0102 0.0105 0.0060 0.0061 0.0097 
W= 一 0.0243 一 0.0117 一 0.0104 一 0.0109 一 0.0399 一 0.0193 一 0.0197 一 0.0104 一 0.0106 一 0.0182 
一 0.0178 一 0.0100 一 0.0087 一 0.0092 一 0.0408 一 0.0176 一 0.0181 一 0.0086 一 0.0089 一 0.0164 
0.0096 0.0039 0.0036 0.0037 0.0101 0.0059 0.0060 0.0036 0.0036 0.0056 
0.0022 0.0015 0.0012 0.0013 0.0070 0.0027 0.0028 0.0012 0.0013 0.0025 
—2.7572 x 10-4 —0.0024 一 0.0019 一 0.0021 一 0.0195 一 0.0059 一 0.0062 一 0.0018 一 0.0020 一 0.0054 
一 0.0145 一 0.0068 一 0.0061 一 0.0064 一 0.0223 一 0.0110 一 0.0113 一 0.0061 一 0.0062 一 0.0104 


一 5.1577 x 10-5 一 1.9292 x 10-5 -1.7822x10-5 一 1.8376 x 10-5 一 3.8219 x 10-5 一 2.6942 x 10-5 一 2.7344 x 10-5 一 1.7859 x 10-5 一 1.7985 x 10-5 一 2.6016 x 10-5 
隐 层 阔 值 = (-0.0390 0.0102 -0.0471 -0.0094 0.1210 0.0812 为 0、1 两 类 , 首先 构造 一 个 含有 10 个 隐 层 节点 的 单 隐 层 网 络 ， 
0.0835 -0.0508 -0.0234 0.0754 ) IT， 网 络 的 输出 权 值 六 利用 本 文中 的 网 络 算法 进行 学 习 ， 得 到 qs，a4，as 都 为 零 ， 所 
(7.0693x105 -1.9033x1010 8.0851x101° 6.6569x1010 -8.4713x105 以 删除 对 应 的 隐 层 节点 ,得 到 含有 7 个 隐 层 节点 的 单 隐 层 网 络 。 
-2.1497x1010 1.2798x1010 -5.6410x1010) T。 网 络 输入 权 值 为 
c) Pima Indians Diabetes 数据 集 。 该 算 例 的 样本 期 望 输出 


0.1450 0.1455 0.1467 0.4055 0.1369 0.1389 0.1341 
0.0352 0.0353 0.0356 0.0984 0.0332 0.0337 0.0325 
一 0.0133 一 0.0134 一 0.0135 一 0.0373 一 0.0126 一 0.0128 一 0.0123 
WwW = 2.9216 x 10-4 2.9328 xX 10-4 2.9559 x 10-4 8.1720x10-4 2.7582 X10-4 2.7995 x 10-4 2.7030 x 10-4 
一 0.0011 一 0.0011 一 0.0012 一 0.0032 一 0.0011 一 0.0011 一 0.0011 
0.0914 0.0918 0.0925 0.2558 0.0863 0.0876 0.0846 
0.9595 0.9632 0.9708 2.6839 0.9095 0.9194 0.8877 
0.0059 0.0060 0.0060 0.0166 0.0056 0.0057 0.0055 
隐 层 阔 值 b=(-16. 5627 -16. 5821 -16. 6218 -25.6151 - 行 如 上 式 (11) 的 转换 之 后 ,分 别 构造 含有 4、2 和 7 个 隐 层 节 


16. 2811 -16. 3522 -16. 1858)7, 网 络 的 输出 权 值 V=(-4. 9056x108 点 的 单 隐 层 网 络 进行 学 习 。 实 验 结果 见 表 2。 限 于 篇 幅 ， 略 去 
5. 8249x108 -1.2476x108 -0. 1772 -7.7607x107 9. 5411x107 了 网 络 输入 权 值 、 隐 层 阔 值 和 输出 权 值 。 


1. 5032x107)T。 将 网 络 输出 值 y 进行 四 舍 五 入 后 得 到 y*, 并 与 网 络 期 望 输 
d) Wisconsin Breast Cancer 数据 集 。 该 数据 集 样本 分 为 F 出 值 进 行 比较 ， 得 到 如 下 实验 结果 ， 如 表 2 所 示 。 

性 和 恶性 两 类 ， 分 别 对 应 1 和 0， 构造 含 有 1 个 隐 层 节点 的 单 表 2 数据 集 实验 结果 

隐 层 网 络 ， 得 到 的 网 络 输入 权 值 为 W= (-1.4687X10-16.5666 数据 集 RMSE TestRMSE ”训练 精度 ”测试 精度 ”节点 数 
0.1334 -0.5236 -0.0174 -3.8815 63.0322 -7.8507 -31.6170 -26.3393 Iris 0.2360 0.1975 95% 98% 3 
18.1990 -1.0747 0.4935 0.8863 -0.0440 -399.0794 26.5462 59.0644 Wine 0.1285 0.2035 100% 98.33% 10 
-122.0129 -204.8474 107.1777 -5.5983 -0.2940 0.0673 0.0297 Pima ID 0.3974 0.3735 77.32% 79.57% 7 
19.8680 1.6532 -9.6924 -36.9432 21.4134 -107.7062 )， 隐 层 阔 值 WisconsinB.C 0.1284 0.1850 97.89% 95.79% 1 
b=40.6548， 网 络 输 出 权 值 性 1.0269 。 Heart 0.3524 -0.3787 85% 86.67% 2 


e) Heart 数据 集 。 该 数据 集 含 有 13 个 属性 值 ， 即 为 样本 输 Balance Scale 0.3585 0.3357 90.59% 94% 4 
入 ， 样 本 输出 为 样本 所 属 类 别 ， 该 样本 数据 分 为 1、2 两 类 。 经 Haberman’sS 0.4257 0.4408 73.04% 78.43% 2 


过 上 述 式 (11) 的 转换 以 后 ， 构 造 含 有 2 个 隐 层 节点 的 单 隐 层 User K.M 0.2349 0.2137 94.19% 98.62% 7 
网 络 ， 得 到 的 网 络 输入 权 值 为 根据 本 文 提出 的 算法 对 于 以 上 8 个 算 例 的 学 习 情况 ， 在 保 
0 证 较 低 的 训练 误差 以 及 测试 误差 情况 下 ， 能 够 得 到 较 高 的 分 类 
0.0909 1.5789 正确 率 。 此 外 ， 在 这 些 例子 中 ， 网 络 最 多 含有 10 个 隐 层 节点 ， 
| 最 少 含有 1 个 隐 层 节点 ， 在 计算 过 程 中 ， 网 络 取 多 个 隐 层 节点 
oy Oo, 和 进行 实验 ， 会 出 现 某 些 ax = 0 的 情况 ， 这 就 意味 着 其 对 应 的 隐 
一 0.0022 一 0.0389 民 节 点 可 以 删除 。 

0 以 上 实验 数据 缘 为 分 类 数据 集 ， 主 要 因为 本 文 的 算法 为 输 
0.0272 出 值 反 向 分 配 算法 。 按 照 本 文 的 思路 ， 当 样本 是 分 类 问题 时 ， 
0.0426 0.7403 输出 值 只 有 少数 几 个 数字 ， 比 较 容易 用 几 个 Qe 实现 分 配 。 所 以 
隐 层 阔 值 =(-24.6254 -3.4921)7, 输出 权 值 天 (2.5763x1010 ”算法 对 分 类 问题 的 效果 比较 好 。 而 对 于 样本 输出 为 连续 值 的 回 

0.4878)"。 归 数 据 集 ， 拟 合 的 效果 比较 差 。 
f) Balance Scale、Haberman’s Survival 和 User Knowledge 针对 文中 Iris、Wine、Pima Indians Diabetes 和 Wisconsin 


Modeling 数据 集 。Balance Scale 数据 集 为 多 元 分 类 ， 样 本 期 望 。 Breast Cancer 算 例 ， 将 本 文 所 提出 的 算法 与 其 他 文献 中 提出 的 
输出 分 别 为 -1.0 和 1; Haberman'”s Survival 数据 集 为 二 元 分 类 ， 多 种 改进 的 极端 学 习 机 算法 : 文献 [14] 中 优化 剪 枝 极端 学 习 机 
样本 期 望 输出 分 别 对 应 1 和 2; User Knowledge Modeling 数据 COP-ELM)， 文 献 [15] 中 分 层 极端 学 习 机 〈H-ELM) 和 传统 极 
集 为 多 元 分 类 ， 样 本 期 望 输出 分 别 对 应 1、2、3 和 4， 在 均 进 ”” 端 学 习 机 (ELM)、 文 献 [16] 中 稀疏 贝 叶 斯 极端 学 习 机 (SBELMD) 


5 
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以 及 文献 [17] 中 基于 粒子 群 优化 算法 极端 学 习 机 (PSO-ELM) 
进行 实验 对 比 ， 如 表 3 所 示 。 
表 3 分 类 实验 结果 比较 


数据 集 算法 测试 精度 节点 数 
本 文 98% 3 
OPELM 95% 4~17 
N1=N2=20; 
Iris HELM 100% 
N3=200 
ELM 92% 200 
SBELM 98% 2.4X3 
本 文 98.33% 10 
OPELM 90.7% 不 详 
N1=N2=20; 
Wine HELM 100% 
N3=500 
ELM 95% 500 
SBELM 99.41% 3.3X3 
本 文 79.57% 7 
OPELM 74.9% 不 详 
N1=N2=10; 
HELM 80.47% N3=200 
Pima ID 
ELM 76.95% 200 
SBELM 78.66% 8 
PSO-ELM 76.38% 10 
Wisconsin 本 文 95.79% 1 
B.C OPELM 95.6% 不 详 
SBELM 97.22% 5.6 


对 比 各 个 实验 结果 可 以 看 出 ， 本 文 算法 与 其 他 上 述 算法 的 


精度 大 致 相同 。 除了 Wine 数据 集中 , 本 文 算 法 与 SBELM 算法 
的 隐 层 节点 数 略 有 差异 以 外 ， 对 于 其 它 数据 集 ， 本 文 算法 所 需 
的 隐 层 节点 数 最 少 。 根 据 统计 学 习 理 论 ， 节 点 数 少 的 网 络 推 广 
能 力 更 好 的 概率 更 大 。 


4 ”结束 语 


本 文 提 出 了 一 种 输出 值 反 向 分 配 算法 来 求 得 单 隐 层 神经 网 
络 的 输入 权 值 与 隐 层 闹 值 。 输入 权 值 通过 分 配 系 数 向 量 g 确 定 ， 
a 通 过 优化 方法 求 得 。 实验 结果 表明 , 本 文 算法 在 保证 有 较 好 的 
学 习 质 量 情况 下 ， 可 以 获得 结构 比较 简单 的 单 隐 层 网 络 。 
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